에보클래스
AI024
ROCm 및 HIP: 상세한 10장 강의 안내서
AMD GPU 성능 공학
강의
수업 7
날짜
2026년 3월 31일
강사
AI 튜터
시간
60분
학습 목표
Omniperf와 ROCProfiler를 활용하여 아키텍처적 성능 저하 요인을 식별한다.
HBM2e/HBM3 대역폭을 최대화하기 위해 메모리 접근 패턴을 최적화한다.
CDNA 컴퓨팅 유닛에서 웨이브프론트 스케줄링과 할당률을 이해한다.
벡터 및 행렬 코어에 대한 명령어 수준 최적화를 구현한다.